gmpo动漫_360影视

几何平均策略优化GMPO：让大模型推理训练更稳健

近年来，强化学习在推动大语言模型进步的过程中扮演着越来越关键的角色，尤其是在提升模型推理能力方面。然而，传统方法在训练过程中常因奖励异常值导致重要性采样比率剧烈波动，进而引发策略更新不稳定、泛化能力受限等问题。为此，微软亚洲研究院提出一种新型稳定化训练算法——